End-to-end formulation of automatic speech recognition (ASR) and speech translation (ST) makes it easy to use a single model for both multilingual ASR and many-to-many ST. In this paper, we propose streaming language-agnostic multilingual speech recognition and translation using neural transducers (LAMASSU). To enable multilingual text generation in LAMASSU, we conduct a systematic comparison between specified and unified prediction and joint networks. We leverage a language-agnostic multilingual encoder that substantially outperforms shared encoders. To enhance LAMASSU, we propose to feed target LID to encoders. We also apply connectionist temporal classification regularization to transducer training. Experimental results show that LAMASSU not only drastically reduces the model size but also outperforms monolingual ASR and bilingual ST models.
translated by 谷歌翻译
In this paper, we introduce our work of building a Streaming Multilingual Speech Model (SM2), which can transcribe or translate multiple spoken languages into texts of the target language. The backbone of SM2 is Transformer Transducer, which has high streaming capability. Instead of human labeled speech translation (ST) data, SM2 models are trained using weakly supervised data generated by converting the transcriptions in speech recognition corpora with a machine translation service. With 351 thousand hours of anonymized speech training data from 25 languages, SM2 models achieve comparable or even better ST quality than some recent popular large-scale non-streaming speech models. More importantly, we show that SM2 has the truly zero-shot capability when expanding to new target languages, yielding high quality ST results for {source-speech, target-text} pairs that are not seen during training.
translated by 谷歌翻译
心肌的准确分割和运动估计在临床领域一直很重要,这基本上有助于下游诊断。但是,现有方法不能始终保证心肌分割的形状完整性。此外,运动估计需要在不同帧上对心肌区域的点对应关系。在本文中,我们提出了一种新型的端到端深度统计形状模型,以关注具有形状完整性和边界对应关系的心肌分割。具体而言,心肌形状由固定数量的点表示,其变化是通过主成分分析(PCA)提取的。深神经网络用于预测转换参数(仿射和变形),然后将其用于将平均点云转转到图像域。此外,引入了一个可区分的渲染层,以将掩码的监督纳入框架中,以了解更准确的点云。通过这种方式,所提出的方法能够在不进行后处理的情况下始终如一地产生解剖上合理的分割掩码。此外,预测的点云还保证了顺序图像的边界对应关系,这有助于下游任务,例如心肌的运动估计。我们进行了几项实验,以证明在几个基准数据集上提出的方法的有效性。
translated by 谷歌翻译
磁共振光谱成像(MRSI)是量化体内代谢物的必不可少的工具,但是低空间分辨率限制了其临床应用。基于深度学习的超分辨率方法为改善MRSI的空间分辨率提供了有希望的结果,但是与实验获得的高分辨率图像相比,超级分辨图像通常是模糊的。已经使用生成对抗网络进行了尝试,以提高图像视觉质量。在这项工作中,我们考虑了另一种类型的生成模型,即基于流的模型,与对抗网络相比,训练更稳定和可解释。具体而言,我们提出了一个基于流动的增强器网络,以提高超分辨率MRSI的视觉质量。与以前的基于流的模型不同,我们的增强器网络包含了来自其他图像模式(MRI)的解剖信息,并使用可学习的基础分布。此外,我们施加指南丢失和数据一致性丢失,以鼓励网络在保持高忠诚度的同时以高视觉质量生成图像。从25名高级神经胶质瘤患者获得的1H-MRSI数据集上进行的实验表明,我们的增强子网络的表现优于对抗网络和基线基线方法。我们的方法还允许视觉质量调整和不确定性估计。
translated by 谷歌翻译
在血管成形术的临床程序中(即开放式堵塞冠状动脉),在X射线荧光镜检查的指导下,需要将气球和支架等装置(例如气球和支架)放置在动脉中。由于X射线剂量的局限性,所得图像通常是嘈杂的。为了检查这些设备的正确放置,平均进行了多个运动补偿帧以增强视图。因此,设备跟踪是为此目的的必要过程。即使设计为具有易于跟踪的放射性标记的血管成形术设备,但由于标记尺寸较小和血管成形术中的复杂场景,当前的方法难以提供令人满意的结果。在本文中,我们提出了一个用于单个支架跟踪的端到端深度学习框架,该框架由三个层次模块组成:基于U-NET的Landmark检测,基于重新连接的支架提案和功能提取,以及图形卷积神经网络(GCN)基于暂时聚集空间信息和外观特征的支架跟踪。实验表明,与基于点的跟踪模型相比,我们的方法在检测中的性能明显更好。此外,其快速推理速度满足临床要求。
translated by 谷歌翻译
我们介绍了软件Robustar的初步发布,该版本旨在通过数据驱动的视角提高视觉分类机器学习模型的鲁棒性。基于最近的理解,即缺乏机器学习模型的鲁棒性是该模型学习虚假特征的趋势,我们旨在通过在训练前从数据中删除数据的杂种特征来从数据角度解决此问题。特别是,我们介绍了一种软件,可以通过允许用户注释图像像素级别的虚假功能来帮助用户更好地为训练图像分类模型准备数据。为了促进这一过程,我们的软件还利用了最近的进步来帮助识别值得关注的潜在图像和像素,并通过新注释的数据继续培训。我们的软件托管在GitHub存储库https://github.com/haohanwang/robustar。
translated by 谷歌翻译
Recently developed methods for video analysis, especially models for pose estimation and behavior classification, are transforming behavioral quantification to be more precise, scalable, and reproducible in fields such as neuroscience and ethology. These tools overcome long-standing limitations of manual scoring of video frames and traditional "center of mass" tracking algorithms to enable video analysis at scale. The expansion of open-source tools for video acquisition and analysis has led to new experimental approaches to understand behavior. Here, we review currently available open-source tools for video analysis and discuss how to set up these methods for labs new to video recording. We also discuss best practices for developing and using video analysis methods, including community-wide standards and critical needs for the open sharing of datasets and code, more widespread comparisons of video analysis methods, and better documentation for these methods especially for new users. We encourage broader adoption and continued development of these tools, which have tremendous potential for accelerating scientific progress in understanding the brain and behavior.
translated by 谷歌翻译
深度神经网络在严重的类不平衡数据集上的表现不佳。鉴于对比度学习的有希望的表现,我们提出了重新平衡的暹罗对比度采矿(RESCOM)来应对不平衡的识别。基于数学分析和仿真结果,我们声称监督的对比学习在原始批次和暹罗批次水平上都遭受双重失衡问题,这比长尾分类学习更为严重。在本文中,在原始批处理水平上,我们引入了级别平衡的监督对比损失,以分配不同类别的自适应权重。在暹罗批次级别,我们提出了一个级别平衡的队列,该队列维持所有类的键相同。此外,我们注意到,相对于对比度逻辑的不平衡对比损失梯度可以将其分解为阳性和负面因素,易于阳性和易于负面因素将使对比度梯度消失。我们建议有监督的正面和负面对挖掘,以获取信息对的对比度计算并改善表示形式学习。最后,为了大致最大程度地提高两种观点之间的相互信息,我们提出了暹罗平衡的软性软件,并与一阶段训练的对比损失结合。广泛的实验表明,在多个长尾识别基准上,RESCON优于先前的方法。我们的代码和模型可公开可用:https://github.com/dvlab-research/rescom。
translated by 谷歌翻译
我们提出了一种框架插值算法,该算法从两个输入图像中综合了具有大型内部运动的两个输入图像。最近的方法使用多个网络来估计光流或深度以及专用于框架合成的单独网络。这通常是复杂的,需要稀缺的光流或深度地面真相。在这项工作中,我们提出了一个单一的统一网络,该网络以多尺度的特征提取器为特色,该特征提取器在各个尺度上共享权重,并且可以单独从框架中训练。为了综合酥脆和令人愉悦的框架,我们建议使用革兰氏矩阵损失来优化我们的网络,从而衡量特征地图之间的相关差异。我们的方法优于XIPH大型运动基准的最先进方法。与使用感知损失的方法相比,我们还可以在Vimeo-90K,Middlebury和UCF101上获得更高的分数。我们研究了体重共享和培训的效果,该数据集的运动范围不断增加。最后,我们证明了模型在综合高质量和临时连贯的视频中的有效性,该视频在具有挑战性的近乎修复的照片数据集中。代码和预训练模型可在https://film-net.github.io上找到。
translated by 谷歌翻译
专家(MOE)的稀疏门控混合物可以用少量计算复杂性来放大网络容量。在这项工作中,我们调查多语言自动语音识别(ASR)网络如何用简单的路由算法进行缩放,以便实现更好的准确性。更具体地,我们将稀疏门的MOE技术应用于两种网络:序列到序列变压器(S2S-T)和变压器换能器(T-T)。我们通过一组关于多语言数据的一组ASR实验证明了MOE网络可以分别使用S2S-T和T-T将相对字误差率降低16.5 \%和4.7 \%。此外,我们在各种条件下彻底调查了MOE对T-T架构上的T-T架构的影响:流模式,非流模式,使用语言ID和带有MOE的标签解码器。
translated by 谷歌翻译